查看原文
其他

奥林匹克数学竞赛-Math6o基准测评方案发布

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

随着人工智能技术的飞速发展,大语言模型在竞赛水平的数学推理能力已经成为了研究的热门话题。以 OpenAI 为例,其在秋季发布的 o1-preview 大模型展现了强大的数学推理能力,它不仅能够处理常规的数学问题,还具备了解决竞赛级别难题的能力。
为了更有效地评估大模型在这方面的表现,尤其是考虑到未来国内可能会涌现出大量具备卓越推理能力的大模型,我们基于 SuperCLUE 中文综合性基准的积累,推出了 SuperCLUE-Math6o(O是指 Olympiad,奥林匹克竞赛)。这一基准主要专注于评估中文大模型在小学水平数学竞赛中的表现,旨在为未来的模型开发提供更有针对性的参考。

我们计划在不久的将来陆续推出专门用于评估中文大模型在初中、高中及大学数学竞赛中表现的基准。大模型数学竞赛测评路线图:

Math6o奥数(小学)-->Math9o奥数(初中)--->Math12o奥数(高中)-->Math16o奥数(大学)

排行榜地址:www.SuperCLUEai.com

#SuperCLUE-Math6o

注:具体的测评任务以正式发布的测评报告为准。

1. 特点
(1)全面性
评分标准全面覆盖解题的关键方面,确保对大模型数学推理能力的全面评估。不仅关注结果正确性,还重视逻辑清晰度、知识灵活性和表达清晰度,以深入了解模型在各维度的表现。
(2)客观性与主观性结合
评分标准不仅评估结果的正确性,还关注解题过程中的逻辑清晰度和思维创造性。这种多维度评估方法旨在全面反映大模型的数学推理能力,鼓励展现独特的思维方式和创新精神。
(3)鼓励创新
为了激励大模型探索新方法,我们设置了创新性评分机制,鼓励采用独特思维,而非依赖传统解法。该机制促进模型在复杂问题上的灵活性和创造力,推动技术进步与突破。
2. 测评任务
为了更有效地评估大模型在小学竞赛水平的数学推理能力,我们选取了国内多个小学数学竞赛的题目进行测评,并将这些题目划分为六个主要类别:应用题、行程、数论、计数、几何、计算以及杂项每个主要类别下又细分为多个小类,以确保全面覆盖不同的数学领域。
2.1 应用题
应用题是小学数学竞赛中的重要领域,考察运用数学知识解决实际问题的能力。其内容包括分数应用题、列方程解题、工程问题和鸡兔同笼等,要求在具体情境中灵活运用数理逻辑与推理。应用题不仅强化计算与分析能力,还培养综合思维与解决复杂问题的能力,是竞赛中不可或缺的一部分。
示例:

2.2 行程
行程问题是小学数学竞赛中的常见考点,研究物体运动中的速度、时间与距离的关系。竞赛中的行程问题包括多人行程、环形跑道、钟面行程和平均速度等,要求灵活运用速度公式、推理相遇与追及等情况。行程问题培养逻辑思维与分析能力,帮助理解动态变化下的数学关系,是竞赛中综合应用的重要内容。

示例:

2.3 数论
数论是小学数学竞赛中的基础领域,主要研究整数的性质及其关系。竞赛中的数论内容包括数的整除、约数问题、余数问题、质数与合数等。数论问题考察对数的结构和运算规律的理解,培养推理和分析能力,是竞赛中挑战思维深度和逻辑性的核心部分。

  示例:

2.4 计数

计数是小学数学竞赛中的重要领域,研究如何有效地计算对象的数量。竞赛中的计数内容包括加乘原理、排列组合、抽屉原理和最值问题等。计数问题考察在复杂情境下合理运用不同方法进行分析和归纳,培养逻辑思维和解决问题的能力,是数学竞赛中富有挑战性的部分。

示例:

2.5 几何

几何是小学数学竞赛中的核心领域,研究形状、空间及其度量。竞赛中的几何内容包括周长与面积、表面积与体积、勾股定理以及五大模型(等积模型、鸟头模型、蝴蝶模型、相似模型、燕尾模型)等。几何问题要求在图形和空间中进行推理与计算,培养空间想象力与逻辑分析能力,是竞赛中培养综合思维的重要部分。

示例:

2.6 计算
计算是小学数学竞赛中的基础领域,涉及多种复杂的计算技巧。竞赛中的计算内容包括计算公式、分数与整数裂项、换元法以及比较与估算等。计算问题不仅考察准确性和速度,还要求灵活运用公式和方法,培养快速推导和解决复杂问题的能力,是竞赛中的重要组成部分。

示例:

2.7 杂项
杂项是小学数学竞赛中涵盖多种综合性题目的领域,考察广泛数学思维能力。竞赛中的杂项内容包括逻辑推理、数阵图与数字谜、操作与策略、不定方程等。杂项问题要求灵活运用多种数学工具,结合推理与策略,培养创新思维和多角度解决问题的能力,是竞赛中的挑战性部分。
示例
3.评分标准和评估示例

评分标准

针对各个大模型在测评任务上的回答质量评估,我们采用了五个统一的评估标准进行评估。这些标准在评估中被赋予不同的权重,以全面反映大模型在小学数学竞赛上的表现。

注:具体的评估标准及权重以正式发布的测评报告为准。

评估示例

案例1:应用题
问题:

模型(国产大模型 1)回答:

超级模型评分

对这个答案进行评估如下:

模型的回答尽管尝试详细解释每一步,但存在严重的错误。特别是在计算步骤和逻辑过程中,存在多个错误逻辑连接和计算错误。例如,模型将40人工作效率与剩余工作时间的计算错误引导到错误结论,并且没有更正这些错误。打分与评价开始:

  1. 结果正确性(5分)模型解答错误且与参考答案不符。在标准1下得分为0分。

    得分:0/5
  1. 逻辑清晰度(5分)尽管描述详尽,但逻辑链和解题步骤存在严重错误,使得逻辑清晰度受损。给2分。

    得分:2/5
  1. 思维创造性(5分)模型回答没有展示出特别的创造性,方法和技巧运用也不具备独特的见解。给2分。

    得分:2/5
  1. 表达清晰度(5分)模型表达详细,但由于逻辑链的问题导致一些部分难以理解。给3分。

    得分:3/5
  1. 知识灵活性(5分)模型能够调用一些基础的定理和概念,但在运用这些知识上表现不够灵活,导致解答错误。给2分。

    得分:2/5    综合得分 = ( 45 * 0 + 40 * 2 +  5 * 2 + 5 * 3 + 5 * 2 ) / 100 = 1.15

    综合以上,AI助手的回答的综合得分为 1.15 分。



案例2:数论
问题:

模型(国产大模型 2)回答:

超级模型评分

对这个答案进行评估如下:

AI助手的解答在关键步骤上的理解是正确的,但答案表述过程中没有清晰说明所有同余方程的解答过程,仅表述了结果。此外,解题过程中使用的符号和步骤可以进一步详细解释。打分与评价开始:

  1. 结果正确性(5分)结果正确,必要步骤包含且计算结果也正确。基于标准1的得分为5分。

    得分:5/5
  1. 逻辑清晰度(5分)逻辑严密,解题思路清晰,但未明确每个条件的转化过程,细节不足。基于标准2的得分为4分。

    得分:4/5
  1. 思维创造性(5分)使用的方法是常见的同余式求解,具有基本的创造性,但未有更深入的解法。基于标准3的得分为3分。

    得分:3/5
  1. 表达清晰度(5分)表达清晰,步骤粗略,但过程和符号使用准确。基于标准4的得分为4分。

    得分:4/5
  1. 知识灵活性(5分)计算较灵活,但欠缺详细分解,较为局限。基于标准5的得分为3分。

    得分:3/5    综合得分 = ( 45 * 5 + 40 * 4 +  5 * 3 + 5 * 4 + 5 * 3 ) / 100 = 4.35

    综合以上,AI助手的回答的综合得分为 4.35 分。

测评集构建

小学数学竞赛中文题库构建流程:

1. 参考国内外现有的小学数学竞赛题库的标准(如国内的华杯赛,国外的AMC8等)

2. 中文数学竞赛题撰写 

3. 小批量测试 

4. 修改并确定小学数学竞赛中文任务体系,参考国内外的标准,针对每一个维度构建专用的测评集。

评分方法

评估流程:1.获得问题、模型答案和参考答案-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分
结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本输入、文件送入超级模型进行评估,并获得每一个维度的评估结果。

测评邀请

时间规划

1.报名时间开始:10月10日
2.参测评模型确认:10月16日
3.测评执行:10月16日-21日
4.结果统计:10月22日-23日
5.测评结果发布:10月24日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告


申请评测地址

邮件标题:

    SuperCLUE-Math6o奥数测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存